#全注意力 vs 混合注意力

记录下这篇文章的阅读笔记,关于 MiniMax 和 Kimi 在大模型注意力机制上的不同技术路线选择。 1. MiniMax 选的:全注意力 (Full Attention) 这是一种蛮力但最扎实的办法。 它就像一个记忆力超群、但也最耗费精力的学生。当他读到小说第 500 页的某一个词时,为了彻底理解这个词,他会把这个词,和前面 499 页的每一个词,都重新对比一遍。 优点: 绝对的全面。他绝不会漏掉任何一丝线索,理解的质量是最高的。 缺点: 成本高到爆炸。文章越长,这种回头看的对比次数就呈指数级飙升。这会吃掉海量的内存和计算时间。 MiniMax 的选择是:我们先用这种最好的蛮力办法,一边等待未来的硬件变得足够便宜,来解决成本问题。 2. Kimi 选的:混合注意力 (Kimi Linear) 这是一种更聪明、更像人类的巧办法。 Kimi 知道蛮力在读长文时是行不通的。它就像一个更有效率的学霸,采用了 3:1 的混合阅读模式: 在 3/4 的时间用一种「线性接力」的方式阅读。 当它读到第 500 页的某个词时,它不会回头去看 499 页的全部内容,而是只看第 499 页最后传过来的那个摘要。它在摘要上补充新信息,再传给下一页。这就像我们正常读书,只需要记住一个不断更新的上下文概要。这非常快,而且极度节省内存。 在 1/4 的时间里处理纠错,它也怕阅读摘要传久了,会忘掉第 1 页的细节。 所以每隔 3 层接力后,它就停一下,用一种压缩过的「全局眼光」快速扫一眼全文的内容大纲,确保自己对整本书的理解没有跑偏。 核心差别 MiniMax 全注意力是用蛮力换质量。它赌的是未来硬件会进步,能撑得起这种巨大的消耗。 Kimi Linear 是用巧劲换效率。它用一种 3:1 的混合架构,在大部分时间跑得飞快,再用小部分时间回头看大局。 Kimi 的突破还在于,它证明了这套巧劲,现在就能用低 75% 的内存和快 6 倍的速度,达到甚至超过了蛮力办法的效果。